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У статті обгрунтовується подання текстового документа у векторному вигляді для подальшого 
застосування алгебраїчного апарату в алгоритмах пошуку інформації. Текстовий документ 
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В статье обосновьіваєтся представление текстового документа в векторном виде для дальнейшего 
применения алгебраического аппарата в алгоритмах поиска информации. Текстовьій документ 


представляєется ТЕ-ІДЕ моделью, в которую введено динамическую составляющую. 
Ключевьге слова: текстовьій поиск, ТЕ-ШОК модель, поисковое векторное пространство. 


Вступ 


Зростання матеріальних 1 духовних цінностей людства, темпів розвит- 
ку науки і техніки знаходить своє відображення у великій кількості не 
структурованих документів, що заповнюють простір сучасних інформа- 
ційних сховищ. Основна частина інформації (близько 309) представлена в 
текстовому вигляді. Тому проблематика текстового пошуку є особливо 
актуальною. 

Для побудови алгоритмів текстового пошуку активно застосовується 
математичний апарат. Але представлення текстового документа як вектора 
не сприймається, а іноді заперечується. Тому дуже важливо розглянути 
дане представлення з позиції векторної аксіоматики. 
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Одночасно, у всіх відомих моделях текстового документа використо- 
вуються статичні елементи, що не відповідає дійсності. Тому як актуаль- 
ність документів та інформації взагалі змінюється з часом. Впровадження 
динаміки в елементи моделі текстового документа є необхідним кроком для 
покращення якості пошуку 1 оптимізації всього пошукового процесу. 

Для викладення матеріалу статті наведемо деякі відомі визначення. 

Визначення 1. Під текстом розуміють кінцеву множину слів, які 
утворюють інформативне повідомлення і об'єднані | лексичним, 
граматичним, змістовним і частотним співвідношенням. 

Визначення 2. Інформаційним пошуком називають процес, в 
результаті якого відбувається виявлення потрібної інформації в деякій 
множині текстових документів, фактів 1 т.д.. 

Інформаційними ресурсами (ІР) будемо називати документи подані в 
електронному вигляді. 

Накопичення інформації. На рис. 1 схематично представлено процес 
накопичення інформаційних ресурсів в електронному сховищі. Під електронним 
сховищем розуміється довільне файлове сховище текстових ІР. 


Рис.1. Первісна обробка ІР 


У першу чергу ІР реєструється в базі електронного сховища. Після 
реєстрації ІР надходить на виділення посилань. Посилання з поточного ІР 
потрапляють в чергу для завантаження з цієї адреси нового ІР. 

Далі ІР надходить в модуль, в якому видаляються з ІР керуючі символи, 
команди і т.п. На виході отримуємо текст ІР без усього зайвого, який передається 
до парсеру - спеціального модуля, функцією якого є синтаксичний аналіз тексту 
та виокремлення слів з тексту ІР. Даний модуль розраховує всі метрики, які 
необхідні для класифікації ІР та його пошуку. Потім ІР, або множина 
відокремлених термінів з нього подається в індексатор, який класифікує ІР, тобто 
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знаходить належне Йому місце в категоріях електронного сховища, і записує у 
відповідному форматі. 

Кожен текстовий ІР - це сукупність термінів, яка несе деяку інформацію. 
Термін - це синтаксично самостійний комплекс морфем, що утворюють жорстко 
пов'язану структуру. Термін відрізняється від поєднання слів тим, що деякі його 
елементи не можуть вживатися в синтаксично ізольованій позиції. Крім того, 
елементи всередині терміну пов'язані один з одним набагато більш жорсткими 1 
міцними зв'язками, ніж елементи речення (тобто поєднання слів). Щоб врахувати 
всі словоформи окремого терміну застосовуються алгоритми лемматізації 1 
стеммінгу. 

Лемматізація - це приведення різних форм термінів у відповідність з 
граматичними формами певної мови. 

Стеммінгом називають наближений евристичний процес, на вході якого від 
слів відкидаються закінчення в розрахунку на те, що в більшості випадків це себе 
виправдає, тобто мається на увазі видалення похідних афіксів. Із застосуванням 
механізмів стеммінга з'являється можливість робити пошук ІРз урахуванням 
морфології слова. Це означає, що при введенні користувачем запиту, 
враховуються всі словоформи даного терміну. 

На сьогодні існує багато різноманітних алгоритмів, які впроваджують 
стеммінг. Серед них виділяють стреммер Портера, алгоритми К5ТЕМ іп-грам. 
Алгоритм Портера не використовує баз основ слів, а лише, застосовуючи 
послідовно ряд правил, відсікає закінчення 1 суфікси, грунтуючись на 
особливостях мови, у зв'язку з чим працює швидко, але не завжди безпомилково. 
Перевагою алгоритму КУТЕМ є те, що він не залежить від частини мови терміну, а 
спирається на алгоритм заміни суфікса. Алгоритм п - грам грунтується на 
принципі: «Якщо слово А збігається зі словом В з урахуванням декількох 
помилок, то з великою часткою ймовірності в них буде хоча б один спільний 
підрядок довжиною М». Ці підрядки довжиною М і називаються п-грамами. Під 
час індексації слово розбивається на такі п-грами, а потім це слово потрапляє в 
списки для кожної з цих М-грам. Під час пошуку запит також розбивається на п- 
грами, і для кожної з них проводиться послідовний перебір списку термінів, що 
містять даний підрядок (1 |. 


Моделі ІР 


Під моделлю ІР розуміють сукупність будь-яких характеристик ресурсу, які 
враховуються системою при його обробці. Характеристики ІР поділяють на два 
типи: пов'язані з текстом ІР і непов'язані з текстом - атрибути ІР. До 
характеристик, пов'язаних з текстом, відносять присутність термінів, їх 
розташування в тексті відносно один одного, форматування документа, структура 
ІР. Характеристики, не пов'язані з текстом, в системах //еб-пошуку називаються 
«мета-атрибутами». Такі атрибути беруться з інших джерел. Для цього виду 
пошуку як атрибути використовують (/К/-адресу ІР в мережі Гпіетпеї, інформацію 
про час створення або зміни ресурсу. 

У моделях ІР, характеристики яких пов'язані з текстом, у простому випадку 
розглядається тільки факт наявності або відсутності слів у документі. Таку модель 
ІР називають бінарною. Більш удосконаленим варіантом такої моделі є підхід, де 
для кожного терміну вказується не тільки Його наявність, але і деяка "вага". 
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Найбільш поширеними методами зважування термінів в ІР, пов'язані з 
отриманням наступних характеристик: 

1) кількістю появ термінів у даному ІР. Дана характеристика досить проста й 
очевидна. Якщо термін частіше міститься в тексті ІР, то, швидше за все, цей ІР 
більш пов'язаний за змістом з цим терміном. Недоліком цього методу оцінки 
"ваги" є те, що якщо колекція містить ІР різної довжини, то більшу вагу будуть 
отримувати більш довгі ресурси, так як в них більше термінів; 

2) частотою появи термінів в ГР (ТЕ). Дана характеристика обчислюється як 
відношення числа входження терміну до загальної кількості термінів (Р. 
Недоліком є те, що в даному випадку, навпаки, недооцінюються довгі документи, 
так як в них більше термінів і їх середня частота в тексті ІР нижча. Для вирішення 
цієї проблеми застосовується доповнена нормалізована частота, яка обчислюється 
як 0.5-0.5(ТЕ/АТЕ), де АТЕ-середня частота терміна в електронному сховищі; 

3) логарифмом частоти входження терміну. У даному випадку вага терміну, 
що входить в текст ІР визначається як /--/о2(ТЕ), де ТЕ - частота терміна. Для 
компенсації ефекту різної довжини ресурсів використовують аналогічну 
нормалізацію частоти. У цьому випадку формула виглядає як (/ -Іоє?(ТЕ)/(І --Іоє 
(МТЕ)), де МТЕ-максимальна частота терміну в електронному сховищі ІР. 

Експериментально доведено, що урахування ваги документа на підставі 
статистичних характеристик покращує якість пошуку. Практично всі сучасні 
пошукові системи використовують одну з описаних характеристик, в основному 
варіанти використання частоти терміну в тексті ІР (ТЕ). 


Пошуковий векторний простір 


Нехай маємо словник - упорядкований набір термінів, потужність якого М. 
Потужність словника - це кількість термінів, які в ньому містяться. 
Після первинного опрацювання ІР (рис. 2) можна представити: 
Фіс- «У, У, ..., УУМі?, (1) 


де мк- частота терміна /-ого терміну(і-1.МУ; 
ИУ -- словник. 


Словник 
Термін! 
Термін» 


Документ і 
ерміни 


Термін! Ті я 


Рис. 2. Витяг термінів з документа 


Нехай частота терміна розраховується за формулою ТЕ-ІОЕ: 


(2) 
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де! ті; - Кількість входжень К-ого терміну в і-ий ІР; 
М; - загальна кількість термінів в ві-ому!Р; 


М 
ІОЕ є (тії го (3) 


де:М - загальна кількість ІР в електронному сховищі; 
Му - кількість ІР, в яких зустрічається К-ий термін. 
Тоді: 


уРоТЕжЖІФЕ (4) 


Доведемо, що представлення (1) є вектором. 
Згідно з визначенням, вектором називається сукупність дійсних чисел, 
розташованих у певному порядку|2|. Представлення (1) відповідає визначенню, 


ї З . - . 
тому як кожна координата К займає місце відповідне розташуванню у словнику 
ИУ. Для представлення (1) зберігаються всі векторні аксіоми. 


1.Сума двох векторів в даному випадку - це злиття двох ІР: 


1 2. 52 УРЕ 1 2.1 2 1 2 
рРореряарРрасиу УМ ВИ» Му ТУР комутативність 


складання. 
201 р? р? «р'ч (р? р?) 
ОН | 2 сю | 2 3 1 і 3 
ЯМИ МУ В МИМО Мо Мона ММ РИ МР асоціативність складання. 
3. Нехай 2. - скаляр. Добуток ІР на скаляр - це тиражування цього ресурсу 
скаляр разів. 
ХО" я р?) ар яна а ек Жим Я ХЛ АММУ ЧН ХМунно ЗМ у  ХИи Р 


дистрибутивність добутку відносно суми. 
4. Нехай у - скаляр, тоді: 
азцр ехо яд а «(А ум (А шуму, мо СЕ нуту Р 


Йе - 1 1 1 
5 ЩО) я (ХР я « Армл Лнмлоуно ЛНМУ РО асоціативність добутку. 


6. - нубтвовий векторі «0, 0,...,02- порожній ІР. Тоді: 


1 
окре Па у і Мн бум? -««0,0,... 0-0 - добуток будь-якого 


вектора на 0 є нуптьовий вектора порожній ІР. 
екс а її 1 
жо ру «1хж ул,1 ж у, ,Іжум РУК УМ», о МУР -ро добуток будь- 


якого вектора на І дорівнює тому ж самому вектору. 
Віднімання двох векторів визначається через добуток на -1 і формулою для 
суми: )'-р'ер'я(- й 
і зай 1 2 


21 2 
р'-р рову о мене . й 
Тобто: іно 172 аа ММС УМ? і тоді виходить, що 


віднімання є дія обернена лото" -р')4р 2-р б 

Нульовий вектор має властивість: 0 0- р. 

З усього вище сказаного, можна зробити висновок, що представлення ІР у 
вигляді (1) є вектором, а множина ІР складає М-вимірний векторний простір. 
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Впровадження динаміки в М-вимірний пошуковий векторний простір 


ІР мають атрибутивними, прагматичними і динамічними властивостями. 
Атрибутивні - це ті властивості, без яких інформація не існує. Прагматичні 
властивості характеризують ступінь корисності інформації для користувача, 
споживача | і | практики. Динамічні властивості | характеризують зміну 
характеристик ІР в часі. 

Найважливішими серед атрибутивних властивостей ІГР є дискретність і 
неперервність. Дискретність виявляється в тому, що в ІР вміщені відомості, 
знання - дискретні, тобто характеризують окремі фактичні дані, закономірності 
та властивості досліджуваних об'єктів, які поширюються у вигляді різних 
повідомлень. ІР, як повідомлення, в яких відображена інформація, мають 
властивість зливатися з уже зафіксованими і накопиченими раніше, тим самим 
сприяючи поступальному розвитку і накопиченню. У цьому знаходить своє 
підтвердження неперервність ІР. 

Прагматичні властивості ІР виявляються в процесі використання інформації, 
відображеної в них. У першу чергу, до даної категорії властивостей відносять 
наявність змісту 1 новизни інформації, що характеризує переміщення інформації в 
соціальних комунікаціях і виділяє ту її частину, яка нова для споживача. 
Корисною називається інформація, що зменшує невизначеність відомостей про 
об'єкт. Властивість кумулятивності характеризує накопичення і зберігання ІР. 

Динамічні властивості ІР характеризують розвиток ІР в часі. З'являються 
нові ІР, інші втрачають актуальність - це кількісно відображається на самій 
моделі ІР. 

Втрата з часом інформаційними ресурсами своєї цінності і корисності 
називається старінням. 

Врахування старіння інформації має велике значення при аналітичних 
дослідженнях, створенні інформаційних продуктів типу інформаційних портретів, 
основних сюжетів подій, ранжируванні результатів роботи інформаційно- 
пошукових систем. Навіть наближена оцінка швидкості старіння ІР має величезну 
практичну цінність, оскільки спонукає надавати більшої значущості актуальним 
ІР |31. 

Старіння ІР проявляється в тому, що постійно виникають нові ІР, нові 
джерела, які містять більш повну, точну, достовірну інформацію. 

При цьому складність використання закономірностей старіння ІР 
складається з різниці зменшення їх використання в різних предметних областях 1 
для різних тимчасових періодів. Ступінь старіння інформації неоднакова для ІР 
різних видів 1 тематик. На швидкість старіння різною мірою впливає дуже багато 
факторів. Особливості старіння ІР пов'язані з тенденціями розвитку кожного 
тематичного напрямку. Для того, щоб кількісно оцінити швидкість старіння ІР, Р. 
Бартон і Р.Кеблер по аналогії з періодом напіврозпаду радіоактивних речовин 
також ввели поняття «напівперіода життя» наукових статей. Напівперіод життя в 
їх розумінні - це час, впродовж якого була опублікована половина всіх 
використовуваних в даний час документів щодо обраної події або явища. Бартон 1 
Кеблер визначили періоди напіврозпаду публікацій з фізики - 4,6 року, з 
математики - 10,5, геології - 11,8. 
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Часто використовується модель Мальтуса. Перевагою даної моделі є те, що 
рівняння Мальтуса має точне рішення у вигляді простої і зручної функції - 
експоненти, але з точки зору інтерпретації результатів вона виглядає досить 
сумнівною. Головною проблемою слід вважати, що експонента є монотонно 
зростаючою функцією, отже, принципово не може описувати процеси, які за 
своєю природою повинні мати локальні екстремуми, але для великої кількості ІР 
модель Мальтуса є коректною 31. 

Розглянемо модель ІР (1), де для Кк-оготерміну і-ого ІР вага у/; визначається 
формулою (4). Дана формула є добутком стаціонарної складової ТЕ і динамічної 
ШК. Тоді, спираючись на модель Мальтуса, отримаємо |41: 


- а (Т;-Т.а) 
уяТЕудЕ,ке С 0 о 


Де і - номер ІР в інформаційному потоці або сховищі; 

к - номер терміну в словнику; 

її - вага К-ого терміна в 1-ому ІР; 

ТЕх - локальна частота К-ого терміну в і-ому ІР визначається формулою (2); 

ІОЕ, - інверсія частоти, з якою деякий термін зустрічається в інформаційному 
потоці, визначається формулою (3); 


Ас - коефіцієнт напіврозпаду актуальності ГР, віднесеного до класу С, 
визначається експертним шляхом, для кожного класу окремо; 
С - клас ІР; 


Ті - тривалість часу існування і-ого ІР; 
Тід - час виникнення і-ого ІР. 

Припустимо, що на відрізку часу //о,ц/, згідно з деякими закономірностями, 
в сховищі з'являється | до ІГР. На осі часу моменти публікації окремих ІР 
позначимо як /,, 12, ..., їц (їо2 їі 2 2 2 2... 2 5). Інформаційним потоком будемо 
називати процес  М(7), реалізація якого характеризується кількістю (Р, 
опублікованих в інтервалі (І), 1). Згідно з  експоненціальною моделлю 
інформаційних потоків: 


ХОЕ-і 
моанмет 9? (6) 


Де М/(ї) - кількість ІР в інформаційному потоці в прогнозованому часі; 
Мо - кількість ІР в інформаційному потоці початковий час; 


і -час; 
іо - початковий час; 
3  - середня відносна зміна інтенсивності 0 інформаційного потоку: 
ха) ен М(с) - МЕ; - Й 
| (бі 1) 
Відповідно до ззаща (6) динаміка ІР в інформаційному потоці опишеться: 
-Ї 
ур ій ен | З, Хе о) ХО о) 
е М; М ке Кк - сб и Мо (е ) - Мод п (е Ї що 


"Пі 
і 


М |МоМОо - бо) З Мор (Є бо) 


Взагалі, вага ""їКІ-ого терміну /-ого ІР буде сумою формул (5) і (6). 


О К.К. Духновська 34 


155 1561 - 5359. Штучний інтелект, 2015, М» 3-4 


Висновок 


Вперше алгебраїчний підхід до текстових інформаційних ресурсів 
застосував Дж. Солтон. При цьому багато фахівців даної галузі науки обережно 
відносяться до такого підходу, посилаючись на те, що немає вагомого 
обгрунтування подання тексту як вектора. Але представлення (1) задовольняє всім 
векторним аксіомам, що доводить: текстовий ІР може подаватися у векторному 
вигляді. Це дає формальне право на застосування алгебраїчного і геометричного 
апарату для побудови методів та алгоритмів класифікації, розпізнавання й пошуку 
текстової інформації. 

Текстовий ГР є динамічним об'єктом, тому що актуальність інформації, 
поданої в цих ресурсах змінюється в часі, як і змінюється весь портрет 
електронного сховища. Відповідно координати вектора, який представляє ІР, є 
функціями часу. Таке представлення доцільне, оскільки воно позбавляє 
необхідності кожного разу перераховувати координати ІР, що впливає на 
ефективність роботи з електронними сховищами, які, на сьогодні, в своїй базі 
можуть нараховувати величезну кількість ІР. 
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ВЕ5СМЕ 


РисіпоузКа К. 
Когтайоп ої (Пе гезеагсп Фупатіс уесіог 5расе 

Кесепіу їФеге Ба5 Бееп їбе асситиїайоп ої аггау5 ої зресіай7едй апа 
цпяїгисішгед їехі їп Їогтпайоп ге5оцгсеє іп (Пе Іпіегпеї. Ассе55 ї0 Шегі ргоуїдед 
іобоглайоп гебгіема! 5убіетів (ТА 5). ТВ 5 аїсогіїрга5 Ба5ед оп аїсогіїптяої уесіог 
аїєебта. Тре5е аїєогійрта5 іпсТадед а 5иррогі уесіог тасфіпе, пеаге5і пеїєПБог, паїуе 
Вауезіап сіа85ібег, Іаїепі зетлапіїс іпдехіпє, еїс. АС 5ате те, папу оссштед доцбіз 
їрас Фе їехі сап Бе герге5епіеа Бу а уесіог. Лі5ійсацоп Їог фіз гергезепіайоп саме Ше 
гієбі 10 Фе и5е ої Фе5е апа оїрег аїсебгаїс аїдогійфртая. Ргоої ойПе уесіог 
гергезепіайопої Фе їехі 15 Базей оп 5еуеп ахіот5ої а уесіог 5расе. Пі 15 сопапликайує, 
аз5осіайуєе уесіог адаїйоп апа ді5іібийує мліб гезресі іо Фе аптоипі, аз5осіайуїку об 
Бе ргодисі, пе ргодисі їо 0 апа 1. Ргоої Баг а! уесіог ахіогл8 аге 5айяПей, її Ро Пому8 
гот Ше рбузіса! ргорегіїе5 ойРе (ехі. 
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Тодау Кехіїв соп51детед аз а 5кайс сопзіапі їп Фе аїсогійптя ої гектісма! зузіет. 
Ви Фе іпіогтайоп раї 15 5арріїед (Пе Кехі і5 дупатіс. СПапеїпє Фе пипарег ої 
іобоглайоп ге5ойгсев оп уагіоц5 їоріс5 Ісайіпеє іо а срапое іп Ше бедиепсу 
сПагасіегізійся ої їБе Кехі. Регппапепі сопуег5іоп ої Шезе сПагасіегівйся мі! пої Беап 
еНеспуєе 5оїийоп 0 їбі5 ргобіет. ТРі8 аз і5 50Їуей Бу гергезепіайоп (ехі а5 уесіог, 
ууУбоз8е соогдаіпаїе5 дферепа оп те. Зисп дерепаепсеіз дегіуед Пот Маїфия 
рориіайоп плодеї. Весац5е ої їБі5 ітріепепіайоп, Бе ІВ5 мій уогк УП плоге 
теїеуапі спагасіегізййся ої їехі іпбогтайоп ге5оигсе5. 


Духновська К.К. 
Формування пошукового динамічного векторного простору 

Останнім часом, спостерігається накопичення масивів спеціалізованих і 
неформалізованих текстових інформаційних ресурсів у глобальній мережі 
Ппіетпеї. Доступ до них забезпечують інформаційно-пошукові системи (ПІС). 
Алгоритми роботи ПІС базуються на алгоритмах векторної алгебри. До таких 
алгоритмів належать: метод опорних векторів, метод найближчого сусіда, наївний 
байєсовський класифікатор, латентно-семантичне індексування 1 т.д. При цьому у 
багатьох виникають великі сумніви, що текст може представлятися вектором. 
Обгрунтування цього подання дає право на застосування даних та інших 
алгебраїчних алгоритмів. Доведення векторного представлення тексту базується 
на семи аксіомах векторного простору. Це є комутативність і асоціативність 
додавання векторів і дистрибутивність відносно суми, асоціативність добутку, 
добуток на 0 і на 1. Доведення того, що всі векторні аксіоми виконуються, 
випливає з фізичних властивостей тексту. 

На сьогодні, в алгоритмах роботи ПІС, текст розглядається як статична 
стала. Але інформація, яка подається цим текстом, є динамічною. Зміна кількості 
інформаційних ресурсів з різної тематики призводить до зміни частотних 
характеристик тексту. Постійний перерахунок цих характеристик не буде 
ефективним вирішенням цієї задачі. Така задача вирішується шляхом подання 
тексту у векторному вигляді, координати якого залежні від часу. Ця залежність 
виводиться на основі моделі народонаселення Мальтуса. Унаслідок такого 
впровадження, ПІС буде працювати з більш актуальними характеристиками 
текстових інформаційних ресурсів. 

Надійшла до редакції 03.07.2015 
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